New Idea
251006
현재 chain이 아닌 Stacking Ensemble 모델이 대부분의 물성 예측에서 성능이 뛰어남을 보여주고 있습니다. 추가로 Stacking Ensemble의 모델 최적화를 통해 대부분의 상황에서 Stacking Ensemble이 지금까지의 데이터 변동률 기반 회귀 체인 모델이나, 일반 회귀 모델들보다 훨씬 더 범용적으로 성능 개선에 활용할 수 있을 것으로 보입니다. 추가 개선 로직까지 작성해 데이터를 수집하는 중인데, 만약 최적 모델이 대부분의 물성 예측에서 뛰어난 성능을 보이면 이 내용을 주제로 해도 될 지 궁금합니다.
고민해 온 논문 주제(연구 질문)
- GAN 등의 생성 모델을 활용해 실제 데이터가 아닌 섬유 방사 데이터를 생성해 데이터의 편향성을 보정해 전체 방사 패턴 예측의 정확도를 향상시킬 수 있는가?
- 이 아이디어의 경우 실제 데이터를 받을 수 없어 생각하다가 자체 기각하였습니다. 혹시 몰라 기입했습니다.
- 물리 정보 신경망을 생성 모델에 결합하여, 섬유 방사 현상을 설명하는 물리 법칙을 데이터 생성 과정에 제약 조건으로 추가하여 물리적으로 더 정확하고 신뢰도 높은 데이터 보정을 수행할 수 있는가?
- 회귀 체인과 유사하게 파라미터를 추가하는 방식이라 실제 의미가 있다면 괜찮을 것 같아 작성하였습니다.
- 인과 추론 프레임워크를 적용해 섬유의 본질적 물리 특성과 측정된 방사 패턴 사이 인과 관계 그래프를 모델링 할 수 있는가? 그리고 편향을 유발하는 교란 변수의 영향을 식별하여 제거하여 편향되지 않은 방사 패턴을 추정할 수 있는가?
- SHAP와 같은 느낌이나 교란 변수를 제거함으로 모델 성능이 올라가는지 확인하면 괜찮을 거 같다고 생각했습니다.
- 베이지안 신경망 기법으로 데이터 부족 및 편향이 심한 영역 방사 패턴 예측에 대한 불확실성을 정량적으로 추정할 수 있는가? 그리고 불확실성 데이터를 추가하여 모델을 재학습 시켰을 때 전체 성능과 모델 신뢰도가 개선되는가?
- 데이터가 편향되고, 적음을 활용하여 각 데이터의 신뢰도를 판단해 불확실성이 높은 영역을 제공하여 모델 자체가 훨씬 더 양질의 데이터를 활용할 수 있게 유도할 생각입니다.
- XAI를 이용하여 편향된 데이터를 학습한 모델이 예측 수행시 특정 공정 변수에 과도하게 의존하는 지 시각적으로 해석할 수 있는가? 그리고 데이터 편향의 근원을 역으로 추적하고 정량화 할 수 있는가?
- 편향 기여도를 추가하여 각 데이터나 특징이 모델의 편향된 예측에 얼마나 기여했는지 정량화하여 특정 영역의 데이터를 선별적으로 가이드하면 모델 성능이 올라가지 않을까 생각해보았습니다.
- (불가능, 사진 데이터 등의 다른 데이터 형태가 없음)멀티 모달 데이터 융합으로 다른 종류의 센서 데이터(SEM 등) 방사 데이터에 내재된 편향을 보정 및 전체 시스템 예측 정확도를 높일 수 있는가?
- 멀티모달 딥러닝 모델이라는 사례를 보고 현재는 불가능하나 이전에 덕엽이형께서 다이텍 회의에서 언급하신 사진등으로 학습하는 모델을 개발하게 된다면 현재 모델에 이 와 같은 이형의 데이터를 추가하여 성능 향상을 고려할 수 있을 거 같아 기입만 해놓았습니다.
250930
현재 한 실험으로 해결할 수 있는 연구 질문
- 생분해성 폴리머의 방사 공정 변수를 바탕으로 최종 생산되는 섬유의 물성을 스태킹 앙상블 리그레션 모델은 얼마나 높은 정확도로 예측할 수 있는가?
- 제안하는 스태킹 앙상블 모델은 개발 기반 모델(RandomForest, XGBoost, 데이터 변동성 기반 회귀 체인, ETC.) 각각 성능 및 이전 연구들의 모델들과 비교했을 때, 예측 정확도와 일반화 성능 측면에서 유의미한 우수성을 보이는가?
추가적인 실험으로 해결할 수 있는 연구 질문
- 현재 가지고 있는 데이터(편향, 적은 데이터)에서 스태킹 앙상블의 최종 예측 성능을 내기 위한 최적의 이종(Heterogeneous) 기반 모델 조합은 무엇인가?
- 트리 기반 모델과 신경망 기반 모델을 결합하는 것이 단일 계열 모델 여러 개 사용하는 것보다 효과적인가?
- 스태킹 앙상블의 최종 예측 성능은 메타 모델의 선택에 따라 어떻게 달라지는가?
- 구축된 모델의 특성 중요도 분석을 통해, 생분해성 섬유의 특정 물성에 가장 결정적인 영향을 미치는 핵심 공정 변수는 무엇인지 식별할 수 있는가?
알아본 결과 SHAP가 Feature Importance 보다 많은 정보를 담아 유의미 할 수 있음
| 구분 | Feature Importance | SHapley Additive exPlanations |
|---|---|---|
| 설명 범위 | 전역: 모델 전체에서 어떤 특성이 중요한지만 알려줌 | 전역+지역: 모델 전체의 특성 중요도와 개별 예측 건 하나하나에 대한 설명까지 제공 |
| 영향 방향성 | 특성의 중요 정도만 알려줌 | 특정 값이 예측을 높였는지(양의 값), 낮췄는지(음의 값)를 명확한 수치로 알려줌 |
| 일관성과 신뢰성 | 일관성 부족: Gini 중요도는 편향될 수 있고, 모델 구조가 조금만 바뀌어도 중요도가 크게 변동될 수 있음 | 일관성 및 정확성이 보장(Shapley Value, 게임 이론에 기반) |
| 모델 의존성 | 모델에 따라 계산법이 다름 | 모델 범용적이라 어떤 모델이든 적용 가능 |
SHAP(XAI) 관련 연구질문
- SHAP 분석을 통해 생분해성 섬유 핵심 물성에 대해 각 공정 변수가 긍정이나 부정으로, 얼마나 큰 영향을 미치는 지 정량적으로 설명하는 것이 Feautre Importance와 비교했을 때 어떤 장점이나 새로운 통찰을 제공하는가?
- 이상치를 고의적으로 발생시켰을 때 SHAP를 활용해 어떤 공정 변수의 이례적 기여가 그 예측의 결정적 원인인지 규명 가능한가?
- 모델이 상식적이지 않은 예측을 할 경우 SHAP 분석을 통해 해당 예측이 모델 학습의 편향때문인지, 데이터 때문인지 구분할 수 있는가?
Stacking + SHAP
- 제안하는 Heterogen Stacking Ensemble 모델은 생분해성 섬유의 핵심 물성을 얼마나 정확하게 예측하는가? 그리고, 개별 기반 모델 및 기존 선행 연구 모델 대비 통계적으로 유의미한 우위를 확보할 수 있는가?
- 데이터의 특성(소량, 편향성)을 고려할 때, 모델의 예측 성능을 극대화하는 최적의 Stacking Ensemble Architecture는 무엇인가? 그리고, 최적화된 모델을 통해 식별된 섬유 물성의 가장 결정적인 핵심 공정 변수는 무엇인가?